当您的集群已经安装共享GPU调度组件,但节点GPU驱动版本与集群中已存在的cGPU版本不兼容,或者节点操作系统版本与集群中已存在的cGPU版本不兼容时,您需要将共享GPU调度组件升级到最新版本。
步骤一:确认共享GPU调度组件的升级方式
您需要根据集群共享GPU调度组件(ack-ai-installer)的安装方式选择升级方式。安装共享GPU调度组件有两种方式。
通过云原生AI套件安装(推荐):在云原生AI套件页面安装共享GPU调度组件ack-ai-installer。具体操作,请参见安装共享GPU调度组件。
通过应用目录安装(该方式已关闭):在应用市场的应用目录页面安装共享GPU调度组件ack-ai-installer。目前该安装方式已关闭。但对于已通过该方式安装的存量组件,您仍然可以在此方式完成组件的升级。
重要如果您卸载了集群中通过此方式安装的组件,再次安装时,您需要开通云原生AI套件服务并完成安装。
步骤二:升级组件
通过云原生AI套件升级
登录容器服务管理控制台,在左侧导航栏选择集群。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在组件列表区域,定位ack-ai-installer组件并在操作列单击升级。
通过应用目录升级
登录容器服务管理控制台,在左侧导航栏选择集群。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在Helm列表,定位ack-ai-installer组件,在操作列单击更新,根据页面指引选择最新的Chart版本并完成组件更新。
重要如需进行Chart的自定义配置,请在修改配置后确认组件的更新。
更新后,请在Helm列表确认ack-ai-installer组件的Chart版本为最新版本。
步骤三:升级存量节点
ack-ai-installer组件升级完成后,并不会升级存量节点的cGPU版本。请参见下方说明,判断节点是否启用cGPU隔离功能。
若集群中包含启用了cGPU隔离功能的GPU节点,还需升级存量节点的cGPU版本。具体操作,请参见升级节点cGPU版本。
若集群中不存在已开启cGPU隔离能力的节点,则忽略此步骤。
说明若节点上存在标签
ack.node.gpu.schedule=cgpu
或ack.node.gpu.schedule=core_mem
,代表已启用cGPU隔离能力。升级存量节点cGPU版本需要停掉节点上的所有业务Pod,请根据业务场景,在低峰期执行此操作。